高性能计算之源起——科学计算的应用现状及发展思考(上)
摘要
现代科学研究和工程技术中,高性能计算应用将建模、算法、软件研制和计算模拟融为一体,已成为高性能计算机实现在重大科学发现的前沿基础科学研究领域应用的必要纽带。文章从高性能计算机的发展趋势、不同科学计算应用对高性能计算机的需求谈起,回顾和剖析了来自中国科学院多个学科的科学家协同通关,发挥学科深度交叉的优势,在“曙光1000”并行计算机上完成了多个应用软件并在天然DNA的整体电子结构理论计算、激光晶体材料(LBO)电子态理论分析及广义本征值并行计算等方面取得了令人瞩目的高水平成果的案例。多年来,中国科学院始终位列我国科学计算应用发展的前沿。在应用水平、计算规模及成果显示度均取得了长足进步的背景下,文章选取了大气科学、生命科学、高能物理、计算化学和材料科学等典型传统科学计算应用,从科学家的视角对它们的现状、领域发展促进及未来趋势作了介绍,以期能引发读者更深入的思考与关注。最后,提出了进一步发展我国科学计算的若干建议。
关键词:科学计算 高性能计算机 高性能计算应用
科学计算是指应用计算机处理科学研究和工程技术中所遇到的数学计算问题。在现代科学研究和工程技术中,常常遇到大量复杂数学计算。其复杂程度往往超越了人脑运算的能力,必须使用计算机进行求解。而计算科学的应用水平已成为衡量国家科技发展水平的重要标志之一;其应用的深入程度则反映出对科学问题探索与理解的深度。2013年10月,美国哈佛大学Martin Karplus教授、斯坦福大学Michael Levitt教授和南加州大学Arieh Warshel教授3位科学家获得了诺贝尔化学奖,获奖理由是“为复杂化学系统创立了多尺度模型”。评选委员会在声明中指出,对当今的化学家而言,计算机已成为与试管同等重要的工具,计算机对生命现象的模拟已为化学大部分研究成果的取得立下了“汗马功劳”。这无疑会进一步加深各学科对计算模型和计算科学的认识与应用,并将引领学科发展进入下一波浪潮。
1.高性能计算应用需应对高度异构的挑战
自20世纪中叶后,高性能计算机的发展取得了长足进步,其计算能力不断地得到提高。特别是进入21世纪以来,高性能计算在重大科学发现的前沿基础科学研究领域已逐渐成为不可或缺的重要手段之一。近年来,高度异构和内部网络高速互联是现代高性能计算机体系架构的重要发展方向。而对于若干典型的高性能计算应用,通讯与计算能力不匹配的矛盾较为突出[1, 2]。一般说来,现代计算机的处理器和加速部件往往达到几千亿次至几万亿次的浮点运算能力,而目前性能较好的内部互联网络的带宽虽达到了200 Gb,仍然相对较慢。
超大规模科学计算的显著特征是可计算问题的规模巨大,TOP500排名前十的超级计算机系统一般拥有千万个以上数量的处理器核心,按照单处理器核心可处理100万个未知量来计,这意味着可计算处理具有1万亿个自由度的复杂系统。即便如此,当今世界上计算能力最强的这些高性能计算机在那些复杂度更高的科学计算应用对计算能力几乎无止境的需求面前,也显得杯水车薪[3, 4]。因此,应用和计算科学家往往不得不采用简化模型、对计算问题进行预条件处理和采用混合精度等手段来降低计算量。从算法的角度来说,美国超算领域的著名数学算法专家Colella[5]于2004年提出了科学计算的7种算法模型,即结构性网格、非结构性网格、快速傅立叶变换(FFT)、稠密线性代数(Dense Linear Algebra)、稀疏线性代数(Sparse Linear Algebra)、粒子动力学(Particles)、蒙特卡洛(Monte Carlo),被称为“七个小矮人”。这7种算法模型对高性能计算机提出了不同方面和层次的需求,也基本覆盖了常见高性能计算应用。
2.我国高性能计算应用的瞩目成果
2.1 中国科学院科学家联合攻关取得令人瞩目的高性能计算应用成果
高性能计算应用的发展和进步需要数学、计算科学、应用领域等学科的深度交叉融合。20世纪90年代中期[6, 7],中国科学院软件研究所、生物物理研究所、物理研究所以及北京科技大学、国家智能中心的科学家联合攻关,在国产“曙光1000”并行计算机上,完成了多个应用软件,并在天然DNA的整体电子结构理论计算、激光晶体材料(LBO)电子态理论分析及广义本征值并行计算等方面取得了令人瞩目的高水平成果。生物物理学、物理学等应用领域的科学家设计出便于在“曙光1000”上实现的新方案,并在运维人员的密切配合下,使其付诸实施。而计算科学家则针对“曙光1000”的特点,提出了“黑匣子并行”的思想和并行方案;同时,在理论上证明了若干收敛性定理,为保证计算结果的正确性及准确预估迭代时间提供了可靠的理论保证。这是中国科学院非常具有代表性的多领域科学家联合攻关,发挥物理模型、算法和高性能计算技术多学科优势和深度交叉的力量,取得高水平成果的成功案例。后来,参与攻关的中国科学院物理研究所王鼎盛与中国科学院生物物理研究所陈润生分别因在计算物理学与计算生物学上的成就而被增选为中国科学院院士。
2.2 中国高性能计算应用取得“戈登·贝尔”奖的突破
近年来,我国科学家在高性能计算应用领域又取得了新突破。在大气科学的全球大气动力学的高性能计算研究方面,由中国科学院软件研究所杨超、清华大学薛巍和付昊桓领衔的应用成果——“千万核可扩展全球大气动力学全隐式模拟” [8]在2016年11月美国盐湖城举办的“全球超级计算大会2016”(SC16)上一举拿下高性能计算应用领域最高奖——“戈登·贝尔”奖②,实现了我国高性能计算应用在此项大奖上零的突破,成为我国高性能计算应用发展的一个新的里程碑。该课题在应用与算法2个层面实现了重大突破:①应用层面。大气动力过程的模拟速度较美国下一代大气模拟系统AM3(GFDL开发)的计算效率提升近1个数量级。全隐式求解方法是未来超高分辨率大气模式构建的一种新选择。②算法层面。实现目前世界上第一个可扩展到千万核,峰值效率超过6%的隐式求解器,它将模拟分辨率提升至500米以内,并行度和峰值效率较2015年“戈登·贝尔”奖工作均提升一个数量级。该成果可应用于全球高分辨率气候模拟和高精细数值天气预报,并在航空、地学、工程学等领域的挑战性计算问题中有广阔应用前景。
3.我国典型传统科学计算应用现状与发展
多年来,中国科学院一直走在我国科学计算应用发展的前列。无论是应用水平、计算规模还是成果显示度均取得了长足的进步。除了上述代表性成果,中国科学院的应用成果还有许多。但因篇幅所限,以下仅选取几个中国科学院典型传统科学计算应用领域,从科学家视角,谈谈科学计算应用现状与发展和一些思考,以期窥一斑见全貌,更希望能引发读者更深入的思考与关注。
3.1 大气科学之全球气候海洋模式
3.1.1 现状
全球气候海洋模式是气候系统模式的重要组成部分,也是气候研究、气候预测和预估不可或缺的工具。空间分辨率的持续增加是海洋环流模式发展的重要趋势之一。全球高分辨率海洋模式的发展要追溯到20世纪90年代初,第一个全球25公里的海洋模式使用了美国地球物理流体力学实验室(GFDL)发展的MOM模式。21世纪开始,随着以日本的“地球模拟器”为代表的大型超算平台的发展,国际上有20多家模式开发中心开始进行全球涡分辨(10公里)模式的发展和研究,包括日本的JAMSTEC,美国的NCAR、NOAA GFDL、FSU,以及德国的MPI气象研究所等。
我国国内的高分辨率全球海洋模式多是引进国外的模式,如在气候模式应用的MOM和POP模式,以及在预报系统中采用的HYCOM和NEMO模式。中国科学院大气物理研究所在全球海洋模式发展方面进行了长期攻关,所发展的涡分辨率全球海洋环流模式——LASG/IAP气候系统海洋模式(LASG/ IAP Climate System Ocean Model,LICOM)[10]也是我国唯一自主发展的全球海洋环流模式。LICOM海洋模式的模拟结果参与了历次国际耦合模式比较计划(CMIP)并被政府间气候变化专门委员会(IPCC)引用,其最新版本的模式被国际同行认为是对ENSO(El Niño-Southern Oscillation)模拟能力最好的模式之一。不仅如此,基于LICOM海洋模式成功地研制了水平分辨率为10公里的海洋环流模式,可显式地模拟海洋中尺度涡旋。中国科学院计算机网络信息中心王文浩等[11]采用MIC并行优化LICOM,实现了较好的加速效果,加速比达到2.09。高分辨率的LICOM支撑了国家和中国科学院的多项大型专项,也应用在国家海洋局环境预报中心等海洋业务中,为日常经济活动等提供了海洋环境保障。
3.1.2 对领域应用的促进
对历年参加CMIP计划模式中海洋分量模式分辨率的分析表明,气候海洋模式最高分辨率的增长基本与计算机发展的摩尔定律相吻合,即模式的分辨率受限于计算能力。随着高性能计算的发展,近期美国国家航空航天局(NASA)采用MITgcm海洋模式,进行了全球2公里的试验。虽然试验受限于计算量和存储量,仅仅运行了1年左右,但其结果第一次实现了对全球次中尺度涡的垂直输送的估算,发现了次中尺度涡在海洋上层热量收支中的重要作用,对于海洋科学和气候变化研究都有重要的意义。与此同时,国内的多家海洋研究单位,也在着手尝试联合进行此方面的研发,有逐步赶超国际的发展趋势。
3.1.3 发展趋势
随着E超级计算平台的研发,全球海洋模式的水平分辨率必然也会向公里级、百米级发展,可分辨种类更齐全的海洋运动形式,如次中尺度涡、内波等。在数值模式中分辨更多的海洋运动形式也是海洋科学的重要发展趋势,而国产计算系统的建设是发展我国自主研制超高分辨率海洋模式的绝佳契机。
3.2 大气科学之全球空气质量预报
3.2.1 现状
为了应对大气污染问题,欧盟、美国、日本和中国均建立了依托高性能计算机的空气质量数值预报中心。我国于2015年建立了国家空气质量预测预警装置,包括峰值达130万亿次的高性能计算机系统、环境空气质量数值预报模式系统、环境空气质量数值预报模式系统并行环境系统、支撑保障系统。这一装置成为我国近年来应对大气重污染事件的核心工具,有效支撑了我国大气污染防治计划的开展。
西班牙Martín等[12]采用OpenMP对STEM-Ⅱ(Sulphur Transport Eulerian Model 2)进行了并行化,并在SGI O2000多处理器、富士通AP3000多计算机和PC集群上开展了测试,结果表明并行代码的模式程序可以显著减小模式运行所需的CPU计算时间。德国Lieber和Wolke[13]发展了一种能有效解决化学传输模式负载不均衡问题的改进耦合方案,有效提高了化学传输模式的并行计算效率。朱云等[14]研究了CMAQ模型在64位Linux操作系统上不同CPU核心数目并行计算模拟耗时以及结果的差异情况。研究结果表明,并行计算能大幅缩短CMAQ模拟耗时,以16个CPU核心并行处理为性价比最佳值;多于16个核心并行处理时,随核心数量的增加模型性能提升的趋势减缓。王自发等[15]基于高性能计算集群建立了具备多模式集合预报功能的空气质量多模式集成预报业务系统,有效支撑了北京奥运会的空气质量保障,推动了我国空气质量预报预警能力的快速提升。Wang等[16]针对空气质量模式中计算耗时大的气相化学模块,设计了化学动力学模拟的新框架,以适应下一代处理器中单一指令多数据(SIMD)技术的使用,通过矢量化实现细粒度级并行化,可使空气质量预报模式实现3倍以上的加速计算。Wang等[17]利用“地球系统数值模拟装置”的原型系统“硅立方”首次实现了中国区域5公里水平分辨率多年的大气污染高精度模拟。
3.2.2 对领域应用的促进
基于高性能计算的城市、区域和国家空气质量预报虽然已取得了长足的进步并具备了较强的预报预警能力,但全球空气质量的预报预警能力仍然非常有限且不确定性大。一方面,由于空气质量数值模拟与预报涉及非常复杂的多尺度大气物理化学过程以及毫秒级大气化学反应和微物理过程的模拟,计算代价高昂,全球空气质量模拟预报仍停留在较粗的空间分辨率(>25公里),难以合理表征很多次网格尺度过程(如机动车、电厂等排放过程以及局地环流过程)。目前,尚未有国家实现高分辨率(<10公里)的全球空气质量预报。另一方面,受计算资源约束,现有全球模式对很多物理化学过程都进行大幅简化处理,同时排放源、气象场等输入数据不确定性大,进一步加大了全球空气质量预报的难度和不确定性。因此,我国空气质量预报能力提升亟待超级计算资源和技术的支撑。
3.2.3 发展趋势
未来,随着我国超算能力的不断增强以及国产计算系统的研发,给我国乃至全球空气质量预报、预警提升提供了巨大的机会。目前,我国在建的国家重大科技基础设施“地球系统数值模拟装置”将研发全国3公里、重点地区1公里水平分辨率的区域高精度大气污染模式,建成后将大幅提升我国区域大气污染模拟预报能力。此外,依托国产计算系统也正在研制高分辨率全球空气质量智能化网格预报系统,必将大幅提升我国在全球空气质量预报上技术能力和研究水平。
3.3 生命科学之药物设计
3.3.1 现状
自20世纪70年代以来,基于计算的药物发现与设计(Computational Drug Discovery and Design,CDDD),也称之为计算机辅助药物设计(Computer-Assisted Drug Design,CADD),经历了显著提升。随着分子生物学和结构生物学的快速发展,大量重要疾病相关的生物大分子的三维结构和生物功能得以确定。同时,随着高性能计算机的快速发展,计算方法在药物发现和分子模拟中的应用不断增加。量子力学、分子力学、分子动力学以及这些方法的组合已广泛用于疾病靶点及药物开发研究。
近10年,基于国产超级计算机的发展,中国科学家在生物大分子分子动力学模拟研究领域取得了较大进展,尤其是中国科学院上海药物研究所的(以下简称“上海药物所”)药物靶标动态行为研究取得了系列创新成果,阐明了众多药物靶标功能及药物作用机制。目前,基于国产超级计算机,上海药物所研究团队开展了40万个原子体系的全原子十微秒尺度的分子动力学模拟,其水平不落后于世界最高水平。但在中小规模(~5万个原子)的全原子分子动力学模拟中,国外的超级计算机,如Anton[18]已可以支撑十毫秒级分子动力学模拟,而我国现有超级计算机只能支撑百微秒级分子动力学模拟。
同时,作为药物分子设计重要手段之一的高通量虚拟筛选(High Throughput Virtual Screening,HTVS)技术,亦称为并行分子对接(Parallel Molecular Docking)技术的发展,使得药物分子设计的速度、成功率均得到了大幅提高。但高通量虚拟筛选计算需要消耗大量的高性能计算资源,计算开销非常昂贵。
3.3.2 对领域应用的促进
传统上,在制药行业中上市新药是非常困难的过程。在美国,一种新药的上市往往需花费超过10亿美元并耗费10—17年的时间。基于生物大分子(如蛋白质和核酸)三维结构的一系列CDDD方法,如高通量虚拟筛选方法,极大地提高了药物发现的效率。根据美国政府报告,由于CDDD技术应用,每种药物平均开发成本减少了约1.3亿美元,研发时间缩短了约1年。
目前,国际各大制药企业均开始重视高性能计算在药物研发中的应用,采用自建高性能计算或与高性能计算服务商及超级计算中心合作的方式来解决创新药物研发进程缓慢的问题。特别是D. E. Shaw Research通过招募数百名数学、化学、生物学等专业以及计算机软硬件方面的优秀人才,开发了蛋白质模拟专用机Anton[18]和Anton 2[19],多次获得“戈登·贝尔”奖;为其专用机发展的分子动力学模拟Desmond程序已经成为药物研发软件Schrodinger(薛定谔)的核心组件之一,是该软件实现高精度自由能计算FEP的主要模块。2016年,美国500强企业吉利德科学公司(Gilead Sciences)投资1.2亿美金购买Nimbus制药的治疗肝病的药物,该事件成为一时的热点,被美国著名媒体《福布斯》杂志报道。Nimbus公司是美国薛定谔公司技术参股公司,该药物完全是用Schrodinger软件设计,计算机设计加实验验证总耗时仅1年时间,时间之短令业界震惊。
“十二五”期间,上海药物所依托我国自主研发的“天河二号”和“神威·太湖之光”超级计算机开发了大规模并行的分子动力学模拟软件、虚拟药物筛选方法及软件,实现了最高156万核并行,并行效率达85%;在针对肿瘤、糖尿病、乙肝等重大疾病靶标蛋白的药物研发中获得了显著成果,多个化合物完成技术转让,取得了巨大经济效益。
3.3.3 发展趋势
新发突发大规模感染性疾病和抗感染药物耐药问题严重威胁人类生命与健康。应对新发突发大规模感染性疾病,基本上无现成药物可供选用。因此,快速实现从无到有的突破在应急应对中显得无比重要,而采用超级计算机药物虚拟筛选技术可在短时间内获得候选化合物,提供紧急应对方案。对抗感染药物耐药问题,只有采用新策略和新机制开展新类型抗感染药物研究,方有可能缓解病原微生物对传统抗感染药物的耐受难题。与病菌耐药相关的蛋白以及途径种类繁多,且在结构水平上的耐药机制尚未完全阐明。因此,对细菌蛋白耐药机制进行研究十分必要,而这就需要对生物大分子的结构与功能进行研究。近2年内的技术突破使超大复合物的高分辨结构研究成为可能,高分辨冷冻电镜技术的突破则成为重要的推动手段之一。科学家利用各种技术获得蛋白质三维结构后,采用分子动力学模拟进行结构功能研究和自由能微扰方法进行小分子药物设计改造。冷冻电镜三维重构、分子动力学模拟均需要耗费大量的高性能计算机时,而随着国产超级计算系统的应用,将会大幅减少药物设计对实验的依赖并显著提高药物研发效率。
3.4 基础科学之高能物理
3.4.1 现状
高能物理的研究对象是物质世界的基本结构及基本相互作用。量子色动力学(QCD)和电弱统一理论(EW)通称为粒子物理的标准模型,是目前高能物理研究的基本理论体系。高能物理的前沿重要课题有强相互作用中的夸克禁闭、标准模型精确检验和超出标准模型的新物理的寻找;与之相关的重大物理问题有强子结构和强相互作用低能特性、宇宙早期演化、中微子性质和中微子质量起源、暗物质和暗能量等。
高性能计算在高能物理中发挥着日益重要的作用,应用范围包括海量的高能物理实验数据的分析(数据密集型)、对撞机和探测器的计算机模拟辅助设计(计算密集型),以及以格点量子色动力学(格点QCD)为代表的高能物理理论计算(计算密集型)。随着计算机技术的发展,高能物理中的高性能计算已经成为与传统的高能物理实验、理论研究并列的第三大分支;其中格点QCD以其高强度、高可扩展性、高并行效率等特点,长期成为高性能科学计算的主要应用领域之一。曾于1988年、1998年和2006年3次获得“戈登·贝尔”奖,2018年也入围了该奖项的候选名单。
欧、美、日等发达国家和地区历来十分重视格点QCD研究并保持在该领域的领先地位。目前,美国格点QCD研究每年消耗的计算资源为几百兆CPU核小时,预计到2025年将达到目前的几十至一百倍。格点QCD已被美国列为其未来E级计算机的重点应用之一,并组织研究队伍在物理课题、算法研究和程序开发等方面开展研究。
我国的格点QCD研究也有长期积累,目前正在组织相关团队基于国内的超级计算系统调试和开发格点QCD的应用软件,期望在未来参与到该领域E计算应用发展中。
3.4.2 对领域应用的促进
格点QCD的研究手段是进行大规模的Monte Carlo数值模拟研究,属于典型的高性能科学计算领域。其对于高能物理中的重大科学问题研究有不可替代的作用,直接服务于未来高能物理的重大物理发现。在标准模型精确检验和超出标准模型新物理寻找方面,格点QCD可以提供标准模型基本参数(如夸克质量、强耦合常数等)的最精确的理论结果;可以从第一性原理提供对新物理敏感的强子矩阵元的精确、可靠的理论输入。在夸克禁闭等强相互作用低能特性方面,格点QCD可以对新型强子态、强子-强子相互作用以及强子结构等问题给出模型无关的物理结果。
格点QCD研究成果的物理意义和国际地位直接决定于对统计误差和各种系统误差的控制水平,而误差大小直接决定于计算规模和计算资源。格点QCD的系统误差主要来自四维时空格点体系的物理大小、格点细密程度以及夸克质量参数的选取。目前国际上格点QCD研究的最大的格点体系大小为1283×256,计算规模大约十万或数十万核;如果未来规模提高到2563×512,则计算规模将增大到数百万核,必须使用E级计算。正所谓“计算决定未来”,计算能力和资源对高能物理未来的重要发现和理论突破的意义是不言而喻的。
3.4.3 发展趋势
美国面向格点QCD研究的未来E级计算应用早已开始布局,国产高性能计算系统将为我国的格点QCD研究直接参与国际竞争提供十分重要的计算支撑。北京正负电子对撞机和北京谱仪(BEPCII/BESIII)是国际上工作在粲夸克能区独一无二的高亮度的实验装置。在轻强子性质研究,尤其是在新型强子态(如胶球、混杂态和XYZ粒子)研究方面有潜在的重大物理发现,但需要理论研究的支持,其中格点QCD的研究必不可少。
我国格点QCD研究将基于国产高性能计算系统开展与BESIII物理密切相关的研究,为实验研究提供精确可靠的物理判据,以期产生重要物理成果。核子(质子和中子)是宇宙可见物质的主要组成,但我们对其结构并不十分清楚,我国筹建的中国高能电子-离子对撞机(EicC)和美国的高能电子-离子对撞机(EIC)及JLab的重要目标之一是研究核子结构。中国的格点QCD研究将针对核子质量、自旋核子三维结构以及对新物理敏感的强子矩阵元进行具有原创性的科学研究。同时,通过大规模的科学计算实践,我国科学家可为格点QCD研究的计算方案、算法和软件作出贡献。
本文摘抄自《中国科学院院刊》2019年第6期
由金钟、陆忠华、李会元、迟学斌、孙家昶等撰写
(未完待续)
高性能计算之源起——科学计算的应用现状及发展思考(下)
内容简介:
3.5 计算化学之第一原理计算
3.6 材料科学之钛合金微观组织演化
3.7 计算材料学之材料结构预测
3.8 计算宇宙学之天文N体计算模拟
3.9 计算生物学之基因测序
4 关于我国科学计算发展的若干建议
相关
最新
技术
关于云端
深圳云端软件有限公司(Cloudam)是弹性算力与云成本优化的技术领导者,为企业打造一站式的算力云平台及自动化云成本优化服务。云端软件推出的云E算力平台整合了全球主流公有云近50个地域的高性能计算资源,能为人工智能、仿真模拟、生物科技、材料化学等行业提供弹性、高效、经济的算力支持。
Cloudam成立于瑞典斯德哥尔摩,在深圳及斯德哥尔摩两地运营,团队核心成员来自于Oracle、Ericsson、IBM、华为等知名企业,拥有15年以上的世界500强企业技术服务经验和研发背景,已成功为欧洲及中国多家企业提供产品和技术服务。
分享、在看与点赞
了解更多高性能计算与云的知识